Transformers are widely used in NLP tasks. However, current approaches to leveraging transformers to understand language expose one weak spot: Number understanding. In some scenarios, numbers frequently occur, especially in semi-structured data like tables. But current approaches to rich-number tasks with transformer-based language models abandon or lose some of the numeracy information - e.g., breaking numbers into sub-word tokens - which leads to many number-related errors. In this paper, we propose the LUNA framework which improves the numerical reasoning and calculation capabilities of transformer-based language models. With the number plugin of NumTok and NumBed, LUNA represents each number as a whole to model input. With number pre-training, including regression loss and model distillation, LUNA bridges the gap between number and vocabulary embeddings. To the best of our knowledge, this is the first work that explicitly injects numeracy capability into language models using Number Plugins. Besides evaluating toy models on toy tasks, we evaluate LUNA on three large-scale transformer models (RoBERTa, BERT, TabBERT) over three different downstream tasks (TATQA, TabFact, CrediTrans), and observe the performances of language models are constantly improved by LUNA. The augmented models also improve the official baseline of TAT-QA (EM: 50.15 -> 59.58) and achieve SOTA performance on CrediTrans (F1 = 86.17).
translated by 谷歌翻译
Online forms are widely used to collect data from human and have a multi-billion market. Many software products provide online services for creating semi-structured forms where questions and descriptions are organized by pre-defined structures. However, the design and creation process of forms is still tedious and requires expert knowledge. To assist form designers, in this work we present FormLM to model online forms (by enhancing pre-trained language model with form structural information) and recommend form creation ideas (including question / options recommendations and block type suggestion). For model training and evaluation, we collect the first public online form dataset with 62K online forms. Experiment results show that FormLM significantly outperforms general-purpose language models on all tasks, with an improvement by 4.71 on Question Recommendation and 10.6 on Block Type Suggestion in terms of ROUGE-1 and Macro-F1, respectively.
translated by 谷歌翻译
许多数据分析任务在很大程度上依赖对表的深入了解(多维数据)。在整个任务中,都存在表字段 /列的共同使用的元数据属性。在本文中,我们确定了四个这样的分析元数据:测量/维度二分法,公共场作用,语义场类型和默认聚集函数。尽管这些元数据面临不足的监督信号的挑战,利用现有的知识和理解分布。为了将这些元数据推理为原始表,我们提出了多任务元数据模型,该模型将现场分布和知识图信息融合到预训练的表格模型中。对于模型培训和评估,我们通过使用下游任务的各种智能监督来收集分析元数据的大型语料库(来自私人电子表格和公共表格数据集的〜582K表)。我们的最佳模型的精度= 98%,命中率在TOP-1> 67%,精度> 80%和四个分析元数据推理任务的精度= 88%。它的表现优于基于规则,传统机器学习方法和预训练的表格模型的一系列基线。分析元数据模型被部署在流行的数据分析产品中,帮助下游智能功能,例如Insights挖掘,图表 /枢轴表建议和自然语言QA ...
translated by 谷歌翻译
表的智能分析和可视化表使用技术自动从数据中推荐有用的知识,从而使用户免于乏味的多维数据挖掘。尽管许多研究成功地通过规则或机器学习来自动化建议,但很难概括专家知识并提供可解释的建议。在本文中,我们首次提出条件格式的建议,以及图表建议,以示例智能表分析。我们建议对表上的分析语义,以发现用户创建的分析背后的共同分析模式。在这里,我们通过将数据重点与用户意图分开,从而分别从数据和人类的角度提取了用户的动机来设计分析语义。此外,我们设计的ASTA框架是为了将分析语义应用于多个自动化建议。 ASTA框架通过根据专家知识设计签名来提取数据功能,并在现场(图)或细胞级(条件格式)(条件格式化)中启用数据引用。实验表明,我们的框架在公共图表中的62.86%中的前1位获得了召回率,在公共图表中,最佳基准优于14%的最佳基准,并在收集的语料库中获得了72.31%的召回,证明ASTA框架有效地提供了准确且可解释的建议。
translated by 谷歌翻译
The use of needles to access sites within organs is fundamental to many interventional medical procedures both for diagnosis and treatment. Safe and accurate navigation of a needle through living tissue to an intra-tissue target is currently often challenging or infeasible due to the presence of anatomical obstacles in the tissue, high levels of uncertainty, and natural tissue motion (e.g., due to breathing). Medical robots capable of automating needle-based procedures in vivo have the potential to overcome these challenges and enable an enhanced level of patient care and safety. In this paper, we show the first medical robot that autonomously navigates a needle inside living tissue around anatomical obstacles to an intra-tissue target. Our system leverages an aiming device and a laser-patterned highly flexible steerable needle, a type of needle capable of maneuvering along curvilinear trajectories to avoid obstacles. The autonomous robot accounts for anatomical obstacles and uncertainty in living tissue/needle interaction with replanning and control and accounts for respiratory motion by defining safe insertion time windows during the breathing cycle. We apply the system to lung biopsy, which is critical in the diagnosis of lung cancer, the leading cause of cancer-related death in the United States. We demonstrate successful performance of our system in multiple in vivo porcine studies and also demonstrate that our approach leveraging autonomous needle steering outperforms a standard manual clinical technique for lung nodule access.
translated by 谷歌翻译
眼科图像和衍生物,例如视网膜神经纤维层(RNFL)厚度图对于检测和监测眼科疾病至关重要(例如,青光眼)。对于计算机辅助诊断眼疾病,关键技术是自动从眼科图像中提取有意义的特征,这些特征可以揭示与功能视觉丧失相关的生物标志物(例如RNFL变薄模式)。然而,将结构性视网膜损伤与人类视力丧失联系起来的眼科图像的表示,主要是由于患者之间的解剖学变化很大。在存在图像伪像的情况下,这项任务变得更加具有挑战性,由于图像采集和自动细分,这很常见。在本文中,我们提出了一个耐伪造的无监督的学习框架,该框架称为眼科图像的学习表示。 Eyelearn具有一个伪影校正模块,可以学习可以最好地预测无伪影眼镜图像的表示形式。此外,Eyelearn采用聚类引导的对比度学习策略,以明确捕获内部和间形的亲和力。在训练过程中,图像在簇中动态组织,以形成对比样品,其中鼓励在相同或不同的簇中分别学习相似或不同的表示形式。为了评估包冰者,我们使用青光眼患者的现实世界眼科摄影图数据集使用学习的表示形式进行视野预测和青光眼检测。广泛的实验和与最先进方法的比较验证了眼球从眼科图像中学习最佳特征表示的有效性。
translated by 谷歌翻译
由于基础物理学的复杂性以及捕获中的复杂遮挡和照明,从稀疏多视频RGB视频中对流体的高保真重建仍然是一个巨大的挑战。现有的解决方案要么假设障碍和照明知识,要么仅专注于没有障碍物或复杂照明的简单流体场景,因此不适合具有未知照明或任意障碍的现实场景。我们提出了第一种通过从稀疏视频的端到端优化中利用管理物理(即,navier -stokes方程)来重建动态流体的第一种方法,而无需采取照明条件,几何信息或边界条件作为输入。我们使用神经网络作为流体的密度和速度解决方案函数以及静态对象的辐射场函数提供连续的时空场景表示。通过将静态和动态含量分开的混合体系结构,与静态障碍物的流体相互作用首次重建,而没有其他几何输入或人类标记。通过用物理知识的深度学习来增强随时间变化的神经辐射场,我们的方法受益于对图像和物理先验的监督。为了从稀疏视图中实现强大的优化,我们引入了逐层增长策略,以逐步提高网络容量。使用具有新的正则化项的逐步增长的模型,我们设法在不拟合的情况下解除了辐射场中的密度彩色歧义。在避免了次优速度之前,将预验证的密度到速度流体模型借用了,该数据低估了涡度,但可以微不足道地满足物理方程。我们的方法在一组代表性的合成和真实流动捕获方面表现出具有放松的约束和强大的灵活性的高质量结果。
translated by 谷歌翻译
作为度量度量空间的有效度量,Gromov-Wasserstein(GW)距离显示了匹配结构化数据(例如点云和图形)问题的潜力。但是,由于其较高的计算复杂性,其实践中的应用受到限制。为了克服这一挑战,我们提出了一种新颖的重要性稀疏方法,称为SPAR-GW,以有效地近似GW距离。特别是,我们的方法没有考虑密集的耦合矩阵,而是利用一种简单但有效的采样策略来构建稀疏的耦合矩阵,并使用几个计算进行更新。我们证明了所提出的SPAR-GW方法适用于GW距离,并以任意地面成本适用于GW距离,并且将复杂性从$ \ Mathcal {o}(n^4)$降低到$ \ Mathcal {o}(n^{2) +\ delta})$对于任意的小$ \ delta> 0 $。另外,该方法可以扩展到近似GW距离的变体,包括熵GW距离,融合的GW距离和不平衡的GW距离。实验表明,在合成和现实世界任务中,我们的SPAR-GW对最先进的方法的优越性。
translated by 谷歌翻译
生成模型的培训尤其是生成的对抗网络可以在低数据设置中轻松分歧。为了减轻这个问题,我们提出了一种新颖的隐含数据增强方法,促进了稳定的培训和综合各种样品。具体地,我们将鉴别者视为真实数据歧管的度量嵌入,它在真实数据点之间提供适当的距离。然后,我们利用特征空间中的信息来开发数据驱动的增强方法。我们进一步提高了一个简单的指标来评估合成样本的多样性。少量发电任务的实验表明,与当前方法相比,我们的方法提高了结果的FID和多样性,并允许使用少于100个训练样本产生高质量和多样化的图像。
translated by 谷歌翻译
文献中对生成对抗网络的多维歧视者(评论家)的研究未被充实。在本文中,我们概括了Wasserstein Gan框架以利用多维评论家的输出并探索其特性。我们还引入了平方根速度变换(SRVT)块,该块有利于多维环境中的训练。性质的证明是基于我们提出的最大P-端口差异的,该差异在上面由P-Wasserstein距离界定,并与Wasserstein Gan框架拟合了多维评论家的输出n。特别是当n = 1和p = 1时,提出的差异等于1-wasserstein距离。理论分析和经验证据表明,高维批评家的产出在区分真实和虚假分布以及结果更快的收敛性和结果多样性方面具有优势。
translated by 谷歌翻译